Evaluation der Qualität lexikalischer Ressourcen zur Stimmungserkennung in literarischen Texten
نویسنده
چکیده
In dieser Veröffentlichung wird die Qualität bzw. Effektivität von lexikalischen Ressourcen zur automatischen Stimmungserkennung in literarischen Texten evaluiert. Dazu werden die drei unterschiedlichen Wortlisten Sentiment Phrase List (SePL), NRC Emotion Lexicon und SentimentWortschatz (SentiWS) sowie ein manuell klassifiziertes Referenzset verwendet. Der Testkorpus besteht aus 20 ausgewählten Märchen aus der Sammlung der schönsten Kinderund Hausmärchen der Brüder Grimm, online bezogen von der Website des Projekt GutenbergDE. Durch die Berechnung bestimmter Maßzahlen wird gezeigt, dass die Werte der automatisch klassifizierten Texte mit den Werten des Referenzkorpus korrelieren. Es wird jedoch deutlich, dass die berechneten Korrelationen, bedingt durch die begrenzte Anzahl der Texte des Testkorpus, sehr instabil sind. Zudem wird gezeigt, dass die manuelle Klassifikation (positiv / negativ) auf Satzebene durch zwei voneinander unabhängige Personen bei dieser Art von literarischen Texten zufriedenstellend funktioniert.
منابع مشابه
Sprachressourcen in der Standardisierung
Wir berichten über internationale Normungsarbeit im Bereich von Sprachressourcen. Die Normen werden von internationalen Arbeitsgruppen im Rahmen der International Organization for Standardization (ISO) entwickelt und jeweils national von entsprechenden Gruppen, in Deutschland koordiniert vom Deutschen Institut für Normung (DIN), begleitet und diskutiert. Für die automatische Sprachverarbeitung ...
متن کاملSTTS als Part-of-Speech-Tagset in Tübinger Baumbanken
Das Stuttgart-Tübingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard für das Tagging von Wortarten in deutschen Texten, und die überwiegende Mehrzahl der POS-annotierten Ressourcen fürs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TüBa-D/S (Hinrichs et al., 2000) und TüBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwe...
متن کاملInhaltsorientierte Navigation in automatisch generierten Hypertext-Basen
Der automatische Aufbau von Hypertexten aus Kollektionen linearer Texte erfordert Verfahren zur Analyse und Segmentierung von Texten, sowie zur Generierung von Hypertext-Kanten. In diesem Beitrag werden Theorien zur Beschreibung der thematischen Struktur von Texten aufgegriffen und zur Entwicklung von Kriterien genutzt, die es erlauben, inhaltlich begründete Kanten zwischen Textfragmenten zu er...
متن کاملOrchestration of resources in distributed, heterogeneous grid environments using dynamic service level agreements
In recent decades the acceptance of the internet and the increase of network capacity have resulted in a situation in which it is now possible to transfer huge amounts of data efficiently and reliably between different computing systems worldwide. This enables new paradigms in provision and use of distributed IT resources. A well-known paradigm is grid computing where computing resources owned ...
متن کاملAttrakDiff: Ein Fragebogen zur Messung wahrgenommener hedonischer und pragmatischer Qualität
Die Evaluation interaktiver Produkte ist eine wichtige Aktivität im Rahmen benutzerzentrierter Gestaltung. Eine Evaluationstechnik, die sich meist auf die Nutzungsqualität oder „Gebrauchstauglichkeit“ eines Produkts konzentriert, stellen Fragebögen dar. Zur Zeit werden allerdings weitere, sogenannte „hedonische“ Qualitätsaspekte diskutiert. Diese beruhen auf den menschlichen Bedürfnissen nach S...
متن کامل